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测验 模式 效应 : 来源、 检测 与 应 用 
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(北京 师范 大 学 中 国 基础 教育 质量 监测 协同 创新 中 心 ,北京 100875) 


摘 要 测验 模式 效应 (Test Mode Effect, TME) 是 指 同一 测验 采用 不 同 测验 形式 施 测 而 产生 的 测验 功能 差异 。 
TME 的 存在 会 对 测验 公平 、 选 拔 标 准 和 测验 等 值 等 产生 影响 ， 因 此 对 TME 进行 准确 检测 和 合理 解释 具有 重 
要 意义 。 通 过 对 TME 的 来 源 、 检 测 ( 包 括 实验 设计 和 检测 方法 ) 以 及 研究 结果 进行 系统 梳理 ,全 面 展 示 TME 
研究 的 方法 论 。 对 TME 模型 进行 进一步 解释 、 对 TME 研究 中 的 测验 形式 进行 拓展 以 及 将 TME 的 研究 成 果 
应 用 于 我 国 的 大 规模 教育 测评 项 目 ， 都 是 TME 领域 的 未 来 重要 发 展 方向 。 
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尽管 大 多 数 测验 都 在 朝 着 CBT 的 方向 发 展 ， 
i 的 进 :; É j 3 ret he x, sH sy 2 > hh 
。 随 者 订 私 机 技术 的 进步 和 网 络 的 普及 计算。 但 这 并 非 一 个 简单 的 过 程 。 在 进行 测验 形式 的 转 
机 测验 已 经 在 测量 和 评估 领域 得 到 广泛 使 用 。 大 
a nn ; 化 之 前 , 人 研究 者 和 实践 者 面临 一 个 关键 性 问题 : 
到 国际 大 规模 测评 项 目 , 小 到 课堂 测试 ， 都 越 来 ee ae 
让 多 地 使 用 计算 机 进行 施 测 。 测 验 形式 正经 历 着 I MA A RMT oh tear PBT CB 
A i a 施 测 时 ， 其 测验 结果 不 一 定 相同 ， 因 而 不 能 盲目 
从 传统 “ 纸 笔 测验 (Paper-based Testing，PBT)” 向 、 
、 , 地 对 它们 进行 直接 比较 (Jerrim，2016)。 这 种 由 测 
“计算 机 测验 (Computer-based Testing, CBT)” 的 转 i d 
变 。 与 PBT HILL, CBT 具有 很 多 优点 ， 比 如 : (1) 验 形式 不 同 而 带 来 的 测验 功能 差异 ,被 称 为 测验 
oak 机 上 助 测验 测量 重 加 高 效 、 公平 (2) 模式 效应 (Test Mode Effect, TME; Kroehne et al., 
可 以 呈现 高 生态 效 度 和 高 交互 性 的 新 颖 题 型 , 增 ”2019; OECD. 2017)。 在 已 有 研究 中 , TME 在 绝 大 
加 被 试 的 作答 兴趣 (Pomplun et al., 2006); GB) 可 以 多 数 情 况 下 特 指 PBT 和 CBT 这 两 种 测验 形式 间 
方便 记录 被 试 的 作答 步 又、 动作 序列 和 作答 时 间 的 差异 。 考 虑 到 测验 形式 从 PBT 向 CBT 转变 是 大 
等 过 程 性 信息 ， 从 而 更 全 面 地 评价 被 试 。 正 因 如 。。 鸭 记 者。 因此 对 TME AARAA ERER: 
此 ,CBT 已 在 国际 学 生 评估 项 目 (Programme for 测验 enone o y 
International Student Assessment, PISA)、 国际 数学 JEN 验 质量 网 | es fe 
和 科学 趋势 研究 (Trends in International Mathematics 受到 测验 开发 者 ` 使 用 者 心理 测量 学 家 和 aise 
and Science Study, TIMSS)、 美 国 国家 教育 进展 评 六 众 的 三 泛 关注 Kline, 2013). 一 个 公平 的 测验 应 
估 (National Assessment of Educational Progress， 人 a 
NAEP) 等 大 规模 测评 项 目 中 得 到 广泛 应 Gest 与 测验 目的 相关 的 知识 和 技能 。 然而 ， 不 同 测验 
形式 间 的 转换 可 能 会 引入 与 测验 目的 无 关 的 变量 ， 
比如 被 试 操 作 计 算 机 的 能 力 可 能 会 对 其 CBT 的 成 
eT adams 绩 产 生 影响 。 因 此 ,研究 TME 有 助 于 明确 和 控制 
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学 中 国 基础 教育 质量 监测 协同 创新 中 心 自 主 课题 。 无 关 因素 的 影响 ， 从 而 提高 测验 的 公平 性 。 
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CBT 的 情况 。 比 如 , TOEFL 就 同时 存在 PBT 和 基 
于 互联 网 的 测验 (Internet-based Testing, iBT) 等 多 
种 测验 形式 。 考虑 到 TME WEE, 美国 教育 考试 
服务 中 心 在 使 用 PBT 时 , 并 不 是 将 CBT 中 的 题目 
直接 转移 到 PBT E, 而 是 有 针对 性 地 对 PBT 中 的 
测验 内 容 、 实 施 过 程 和 评价 标准 等 进行 修改 ， 以 
保障 不 同 测验 形式 下 的 结果 具有 可 比 性 ， 从 而 增 
加 选拔 与 评价 结果 的 可 信 度 。 

最 后 ， 对 TME 进行 研究 可 以 帮助 获得 准确 的 
等 值 结果 。 随 着 CBT 的 广泛 使 用 , PISA 等 国际 测 
评 项 目 已 经 出 现 “ 不 同 测验 周期 使 用 不 同 测验 形 
式 ” 的 情况 (Feskens et al., 2019)。TME 的 存在 会 影 


~ 


被 试 在 PBT 中 的 表现 显著 好 于 两 种 分 辨 率 下 CBT 
的 表现 ; 而 且 分 辩 率 越 高 ， 被 试 感受 到 的 疲劳 程 
度 越 轻 。 在 屏幕 大 小 方面 ， 其 对 TME 的 影响 因 人 
而 异 , 但 总 体 来 说 ,， 更 大 的 屏幕 会 增加 文字 的 可 
读 性 ， 从 而 提高 测验 表现 (Bridgeman et al., 2003)。 

(2) 是 否 允 许 检查 并 修改 答案 。 在 PBT 中 ,被 
试 可 以 不 按 题目 的 呈现 顺序 进行 作答 ， 甚 至 可 以 
随时 对 已 作答 题目 进行 检查 并 修改 答案 ; 而 有 些 
CBT (如 计算 机 化 自 适应 测验 [Computerized Adaptive 
Testing,，CAT]) 一 般 不 允许 被 试 返回 检查 并 修改 答 
R, 主要 是 因为 考试 机 构 担 心 提供 修改 机 会 会 带 
来 两 个 问题 : @) “聪明 ”被 试 或 “聪明 ”备考 机 构 所 


响 不 同 测验 周期 学 生 分 数 等 值 结果 的 准确 性 ,使 
得 研究 者 没 法 合理 刻画 学 生 的 能 力 发 展 趋势 ， 进 
而 削弱 教育 评估 项 目的 意义 。 因 此 ， 对 题库 中 可 
能 存在 TME 的 题目 进行 检测 ， 可 进一步 改善 测验 
和 题目 质量 ， 从 而 保障 教育 评估 项 目的 有 效 性 。 
鉴于 这 一 主题 的 重要 性 ， 本 文 对 TME 进行 系 
统 述 评 ， 以 期 为 测量 研究 者 与 实践 者 了 解 TME 的 
来 源 、 检 测 方法 和 研究 思路 提供 帮助 。 本 文 将 按 
以 下 顺序 进行 组 织 : 首先 介绍 TME 的 来 源 ， 然 后 
探讨 TME 的 检测 (包括 控制 TME 影响 的 实验 设计 
和 对 TME 进行 检测 的 方法 )， 接 着 总 结 TME 研究 
的 结果 与 不 足 ， 最 后 展望 TME 的 未 来 研究 方向 。 


2 TME 的 来 源 


TME 来 源 于 测验 形式 不 同 所 带 来 的 差异 ， 这 
种 差异 可 以 来 自 4 个 层面 : 测验 层面 、 题 目 层面 、 
被 试 层 面 和 评分 者 层面 。 接 下 来 分 别 介绍 这 4 个 
层面 的 差异 如 何 导致 TME 的 产生 。 

2.1 测验 层面 

测验 层面 的 差异 是 指 由 于 不 同 测验 形式 具有 
的 特征 不 同 而 导致 的 差异 ， 比 如 PBT 与 CBT 在 作 
答 设备 、 作 答 过 程 中 是 否 允 许 检 查 并 修改 答案 、 
测验 过 程 中 有 无 监督 以 及 测验 计时 和 选 题 方 式 等 
方面 都 具有 不 同 的 特征 。 具 体 来 说 : 

() 作 答 设 备 。 在 PBT F, 被 试 通常 使 用 纸 笔 
进行 作答 ; 而 在 CBT 中 ,被 试 需要 在 显示 屏 上 阅 
读 题目 , 并 使 用 鼠标 和 键盘 进行 作答 。 屏 幕 大 小 、 
分 辩 率 和 刷新 速度 等 都 可 能 对 被 试 在 计算 机 上 的 
作答 产生 影响 。Ziefle(1998) 对 被 试 在 PBT 和 两 种 
屏幕 分 辩 率 (1664x1200 和 832x600) F CBT 的 阅 
读 表 现 及 感受 到 的 疲劳 程度 进行 比较 , 结果 发 现 


指导 的 被 试 通过 采用 Wainer 策略 (Wainer，1993) 
和 Kingsbury 策略 (Wise et al., 1997) 等 作 次 策略 获 
得 虚 高 的 分 数 ， 从 而 影响 测验 的 公平 性 、 公 正 性 
和 准确 性 ; © 增加 测验 时 间 ， 相 应 地 增加 测验 费 
Ho CAT 不 提供 修改 功能 也 会 给 被 试 带 来 两 方面 
的 影响 : @ 被 试 在 PBT 中 惯用 的 作答 策略 不 能 
用 于 CAT, 会 给 他 们 带 来 焦虑 和 压力 ; O 若 被 试 
完全 有 能 力 答对 某 道 题目 但 是 键入 或 点 击 失 误 了 ， 
不 允许 修改 会 导致 其 能 力 被 低估 ; 相反 ， 若 被 试 
没有 能 力 答对 某 道 题目 但 是 猜 对 了 , 不 允许 修改 
会 导致 其 能 力 被 高 估 ( 陈 平 , 丁 树 良 ，2008; 高 旭 
亮 等 , 2016; Pi 等 ,2015)。 不 提供 修改 机 会 的 
CAT 可 能 导致 TME 的 产生 。 

(3) 测 验 过 程 有 无 监督 。 一 般 情况 下 , PBT 的 
实施 过 程 中 往往 有 主 试 在 场 监督 ， 而 对 于 部 分 
CBT (比如 通过 网 络 进行 的 在 线 测验 ) 很 有 可 能 会 
在 无 人 监督 的 情况 下 开展 , 这 也 有 可 能 导致 TME 
的 产生 。Goldberg 和 Pedulla(2002) 比 较 被 试 在 
PBT、 有 监督 CBT 和 无 监督 CBT 的 GRE 分 数 ， 结 
RR: 被 试 在 PBT 和 有 监督 CBT 中 的 表现 显著 
好 于 无 监督 CBT。 测 验 过 程 有 无 监督 可 能 会 对 被 
试 的 作答 动机 产生 影响 ， 从 而 影响 其 在 测验 中 的 
表现 。 

(4) 测 验 计时 与 选 题 方式 。 在 CBT 中 ， 计 算 机 
为 更 精细 的 考试 流程 设计 提供 了 可 能 : 四 测验 
开发 者 可 以 将 测验 的 计时 设计 为 “以 单 道 题目 为 
单位 ”、“ 以 测验 模块 为 单位 ?或 “以 整个 测验 为 单 
fi"; @) 测验 的 组 卷 不 再 拘泥 于 固定 试题 ， 而 人 允 
许 被 试 作答 与 自身 能 力 匹 配 的 题目 ( 即 CAT)。 虽 
然 没 有 研究 直接 表明 不 同 的 测验 计时 设计 会 引起 
TME, 但 是 相 比 于 以 单 道 题 为 单位 的 计时 , 目前 


ChinaXiv 合 作 期 刊 


1968 心理 科学 进展 第 31 卷 


主流 的 大 型 CBT (如 PISA 和 NAEP) 通 常 以 一 个 测 
验 模块 为 单位 进行 计时 ， 且 部 分 CBT (如 GRE) 允 
许 被 试 选择 偏好 的 时 间 呈 现 方式 ( 即 显示 或 不 显 
示 倒 计时 )。 另 外 ， 相 比 于 可 能 包含 简单 题 的 PBT, 
CAT 中 高 能 力 水 平 被 试 的 测验 过 程 可 能 更 “吃力 ”， 
因为 总 是 作答 与 自身 能 力 水 平 匹配 的 难题 。 为 探 
究 CAT 匹 配 被 试 能 力 的 选 题 策略 是 否 会 增加 被 试 
的 测验 焦虑 程度 进而 引起 TME，Powers(1999) 基 
于 GRE 的 PBT 和 CBT 样本 进行 回归 分 析 ， 发现 
被 试 在 两 种 测验 形式 下 的 焦虑 与 GRE 分 数 之 间 
的 关系 并 无 显著 差异 ,而且 自 适 应 的 选 题 策略 并 
未 加 剧 被 试 的 测验 焦虑 。Fritts 和 Marszalek(2010) 
分 析 中 学 生 的 学 业 进 度 测 验 (measures of 
academic progress) 结 果 后 发 现 : 在 控制 被 试 对 考 
试 的 基线 焦虑 水 平和 对 电脑 使 用 的 焦虑 后 ， 相 比 
于 CAT, 被 试 在 PBT 上 表现 出 更 高 的 焦虑 水 平 。 
22 题目 层面 
题目 层面 的 差异 来 源 于 题目 本 身 的 属性 ， 这 


析 后 发 现 : 相对 于 PBT 被 试 群体 ，CBT 被 试 群 体 
在 低 年 级 (3~8 年 级 ) 题 目 上 的 表现 更 好 ; 而 对 于 高 
年 级 的 建构 题 ， 结 论 则 相反 。 这 意味 着 题 型 在 不 
同 测验 形式 上 的 差异 还 可 能 源 于 题目 所 涉及 的 认 
知 过 程 不 同 。Johnson 和 Green (2006) 通 过 观察 和 
访谈 小 学 生 后 发 现 , 约 1/3 的 被 试 在 作答 不 同 测 
验 形式 下 的 题目 时 会 采用 不 同 的 作答 策略 。 而 对 
于 作文 任务 , 研究 认为 被 试 在 CBT 上 的 表现 优 于 
PBT, 或 两 者 没有 显著 差异 (Lee，2002; Lynch, 
2022; Zhi & Huang, 2021)。Li (2006) 让 被 试 在 作答 
学 术 英 语 任务 (English for academic purposes) 时 进 
行 出 声 思 维 ， 发 现 被 试 在 CBT 上 展现 出 更 高 阶 的 
思维 能 力 , 并 且 比 PBT 做 出 更 多 的 修改 。 相 比 于 
关注 单词 水 平 的 修改 , 被 试 在 CBT 上 更 多 地 进行 
句子 和 上 段落 层次 的 完善 和 组 织 (Chan et al., 2018). 
2.3 ”被 试 层面 

被 试 层面 的 差异 来 源 于 被 试 本 身 的 属性 ， 这 
些 属性 并 非 测 验 想 要 测量 的 特质 , 但 是 它们 在 不 


些 属性 可 能 在 不 同 测验 形式 下 的 表现 不 同 ， 从 而 
导致 TME 的 产生 。 具 体 包 括 : 

(1) 题 目 呈 现 方式 ,呈现 方式 包括 题目 的 字体 、 
字号 、 粗 细 和 颜色 (Bernard et al., 2002; Bernard & 
Mills，2000)、 每 一 行 的 文字 长 度 (Chaparro et al., 
2002) 、 每 一 页 中 呈现 的 题目 数量 和 行 数 
(Duchnicky & Kolers，1983) 以 及 每 一 页 中 空白 部 
分 的 面积 大 小 (McMnullin et al., 2002) 等 。 由 于 CBT 
的 形式 多 样 且 多 借助 现成 软件 或 平台 进行 施 测 ， 
很 难保 证 所 有 题目 都 以 相同 方式 呈现 给 被 试 ， 从 
而 导致 TME 的 产生 。 

(2) 题 目 类 型 。 题 目 类 型 可 能 会 影响 被 试 和 题 
目 间 的 交互 方式 ， 从 而 影响 被 试 的 作答 表现 
(Kréhne & Martens, 2011)。 题 目 类 型 主要 包括 两 
大 类 : 选择 题 与 建构 题 。 对 于 选择 题 ,特别 是 当 题 
目 较 短 时 , 不同 测验 形式 的 差异 较 小 , 较 少 检测 
出 TME(Buerger et al., 2016; Lynch, 2022). 而 对 于 
建构 题 ,考生 在 PBT 上 的 表现 倾向 于 比 CBT 更 好 
(Bennett et al., 2008). 这 可 能 源 于 题目 交互 方式 的 
复杂 程度 的 变化 ,交互 方式 较 复 杂 的 题目 更 容易 
影响 被 试 在 CBT 上 的 成 绩 (Kingston, 2008). 例如， 
当 题 目 包 含 较 长 的 文本 或 作答 过 程 涉 及 使 用 鼠 
标 、 深 轮 和 下 拉 菜 单 等 , 题目 的 作答 难度 会 增加 
(Poggio et al., 2005)。 男 外 , Liu 等 人 (2016) 对 美国 
基础 教育 评价 系统 (PARCC) 的 数学 建构 题 进行 分 


同 测验 形式 上 的 差异 可 能 会 导致 TME 的 产生 。 具 
体 包 括 : 

(1) 人 口 学 变量 。 性 别 、 年 岭 、 种 族 和 社会 经 
济 地 位 等 人 口 学 变量 并 不 直接 导致 TME， 而 是 通 
过 影响 与 测验 目的 相关 的 被 试 能 力 等 来 间接 导致 
TME。 比 如 , 老年 人 可 能 由 于 使 用 计算 机 的 熟练 
程度 不 如 年 轻 人 ,因而 在 CBT 上 的 表现 更 差 
(Chua et al., 1999); 但 也 有 研究 表明 ,年 龄 带 来 的 
差异 并 不 像 研究 者 预期 的 那样 显著 (Weigold et al. 
2016)。Fouladi 等 人 (2002) 发 现 不 同 测验 形式 间 的 
结果 存在 较 大 差异 , 但 在 控制 性 别 和 种 族 的 影响 
后 , 不 同 测验 形式 间 的 结果 差异 显著 减 小 。 

CQ2) 计 算 机 的 熟练 程度 。 对 计算 机 使 用 越 熟 练 ， 
在 CBT 中 的 表现 就 越 好 (Jerrim et al., 2018; 
Pomplun，2007)。 一 方面 ， 对 计算 机 越 熟 练 ,在 作 
答 时 的 操作 就 越 快捷 ; 另 一 方面 , 被 试 的 学 习 过 
程 和 测试 过 程 的 形式 相 匹配 时 ， 他 们 的 作答 分 数 
会 更 高 ， 即 存在 一 定 的 迁移 适用 加 工 过 程 (transfer 
appropriate processing; Clariana & Wallace, 2002)。 
但 也 有 研究 发 现 , 使 用 计算 机 的 熟练 程度 不 会 对 
被 试 在 CBT 上 的 结果 产生 影响 (Jeong, 2012). 

(G3) 作答 动机 。 与 低 利害 测验 相 比 ， 参 加 高 利 
害 测验 的 被 试 具有 更 高 的 作 管 动机 ， 从 而 在 PBT 
Al CBT 上 有 更 相近 的 表现 (Rowan, 2010)。 有 意思 
的 是 , 也 有 研究 发 现 : 与 PBT FALL, 被 试 对 CBT 
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普遍 有 更 好 的 体验 、 更 高 的 作答 动机 和 自我 效能 
感 , 但 在 CBT 上 的 得 分 却 更 低 (Chua, 2012). 
2.4 评分 者 层面 

评分 者 层面 的 差异 本 质 上 源 于 评分 者 内 在 认 
知 加 工 的 不 同 ， 认 知 加 工 的 不 同 可 能 使 得 评分 者 


需要 注意 的 是 , 来 自 评分 者 的 影响 通常 与 题 
型 相互 交织 , 评分 者 对 CBT 与 PBT 的 评分 差异 
多 出 现 于 建构 题 上 。 为 区 分 两 者 的 影响 , 研究 者 
将 手写 版 的 作 管 输入 计算 机 ， 让 评分 者 对 混合 之 
后 的 打字 版 作答 进行 评分 ， 发 现 被 试 在 CBT 上 的 


在 不 同 测验 形式 下 的 评分 结果 有 所 差异 ， 从 而 导 
致 TME 的 产生 。 也 即 , 评分 者 效应 (rater effect; Hf 
建 涛 等 , 2019) 也 可 能 是 TME 的 来 源 之 一 。 测 验 
中 的 客观 题 由 于 评分 标准 明确 、 客 观 ， 所 以 其 让 
分 结果 不 易 被 评分 者 效应 影响 ; 而 对 于 主观 题 ， 
其 评分 结果 则 容易 受到 评分 者 主观 因素 的 影响 ， 
从 而 导致 其 在 PBT 和 CBT 中 的 评分 结果 存在 差 


i 


得 分 更 高 (Jin 
1997)。 但 也 有 


& Yan, 2017; Russell & Haney, 
对 学 术 英 语 测试 的 研究 发 现 ， 控 制 


评分 者 的 严格 程度 和 信 度 之 后 ,被 试 在 CBT 与 


PBT 下 的 整体 


测验 得 分 差异 较 小 ,评分 者 仅 在 词 


汇 量 测 试题 中 旦 现 出 对 手写 版 的 偏好 (Chan et al., 


2018). 


异 。 具 体 来 说 , 评分 者 在 评定 不 同 测验 形式 下 的 
被 试 作 答 时 ， 主 要 受到 被 试 作答 呈现 方式 的 影响 
(Hunsu, 2015)， 其 中 手写 版 handwritten) 和 打字 版 
(typed or word-processed) 的 差异 是 研究 关注 的 重 
点 。 Arnold 等 人 (1990) 发 现 , 评分 者 倾向 于 对 手写 
版 作答 采用 更 宽松 的 标准 ， 而 对 打字 版 更 苟 刻 。 
这 可 能 是 因为 手写 作答 在 一 定 程度 上 具有 更 长 的 
感知 视觉 效果 ,并 保留 被 试 的 修改 痕迹 ,而 且 有 
评分 者 认为 手写 版 比 打字 版 更 有 “力量 ”(Powers 
et al., 1994; Russell & Tao, 2004a)。 另 外 ， 为 探讨 
不 同 测 验 形式 给 评分 者 带 来 的 感知 长 度 差异 对 测 
验 结果 的 影响 ,研究 者 对 比 单 倍 行距 与 双 倍 行距 
的 作文 评分 ,发现 长 度 的 变化 并 没有 消除 CBT 与 
PBT 的 得 分 差异 (Russell & Tao, 2004b)。 


H 


产生 进行 说 明 。 
在 实践 中 ， 


K 1 对 TME 的 来 源 进行 总 结 ， 


对 TME 的 


研究 者 往往 需要 在 排除 无 关 变量 


的 影响 后 ， 


再 探究 测验 形式 对 测验 结果 的 影响 。 


因此 ， 对 TME 的 来 源 进行 梳理 有 助 于 研究 者 在 实 
验 设计 阶段 对 无 关 变量 进行 严格 控制 ， 以 减少 无 
关 变 量 的 影响 。 比 如 , 在 测验 层面 保证 被 试 都 能 
检查 并 修改 答案 ， 且 作答 过 程 都 在 有 人 监督 的 情 
况 下 进行 ; 在 题目 层面 保证 所 有 题目 在 PBT 和 
CBT 上 有 相同 的 呈现 效果 ; 在 被 试 层 面 保证 在 两 种 
测验 形式 上 作答 的 被 试 的 年 龄 和 性 别 等 方面 一 致 。 


3 TME 的 检测 


3.1 TME 的 实验 设计 
TME 研究 一 般 采 用 两 类 实验 设计 控制 被 试 
表 1 TME 的 来 源 和 对 TME 产生 的 说 明 


TME 的 来 源 TME 产生 的 说 明 

测验 层面 

作答 设备 PBT 使 用 纸 笔 , CBT 使 用 屏幕 、 鼠 标 和 键盘 

是 否 允 许 检 查 并 修改 答案 PBT 允许 检查 修改 答案 , CBT 往往 不 允许 

测验 过 程 有 无 监督 PBT 往往 有 监督 , CBT 可 能 无 监督 

测验 计时 与 选 题 方式 CBT 的 计时 和 选 题 方式 更 灵活 , PBT 的 更 固定 
题目 层面 

题目 呈现 方式 CBT 的 多 样 形式 导致 很 难 与 PBT 有 完全 相同 的 题目 呈现 方式 

题目 类 型 题 型 交互 方式 的 复杂 程度 影响 CBT 上 的 表现 
被 试 层面 

人 口 学 变量 年 龄 和 性 别 等 通过 影响 其 他 变量 间接 导致 TME 

计算 机 的 熟练 程度 计算 机 熟练 程度 可 能 影响 CBT 上 的 成 绩 

作答 动机 PBT 和 CBT 上 的 作答 动机 不 同 导 致 得 分 差异 

评分 者 层 
评分 者 效应 主观 题 易 受 评分 者 效应 的 影响 
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特征 : 组 间 设 计 和 组 内 设计 (Buerger et al., 2016). 

在 TME 的 研究 背景 下 , 组 间 设 计 中 每 名 被 试 只 接 
受 PBT 或 者 CBT, 而 在 组 内 设计 中 每 名 被 试 先后 
接受 这 两 种 测验 形式 。TME 组 间 设 计 和 组 内 设计 
如 图 1 所 示 ( 共 N 名 被 试 和 7 道 题 )。 根 据 被 试 是 否 
能 够 自由 选择 测验 形式 , 组 间 设 计 又 被 分 为 两 类 : 
(1) 自 由 选择 。 即 被 试 可 以 自由 选择 测验 形式 
(Puhan et al., 2007); (2) 随 机 分 配 。 即 研究 者 将 被 试 
随机 分 配给 某 种 测验 形式 (Gu et al., 2021; 
Schwarz et al., 2003)。 根据 被 试 作答 顺序 是 否 固 定 ， 
组 内 设计 也 可 以 被 分 为 两 类 : (1) 固 定 顺 序 。 即 所 
有 被 试 接受 两 种 形式 测验 的 顺序 固定 且 一 致 
(Jeong, 2012); (2) 平 衡 顺 序 。 即 先 将 被 试 随机 分 成 
两 组 , 一 组 先 接受 测验 形式 A (如 PBT), 一 段 时 
间 后 再 接受 测验 形式 B (如 CBT), 男 一 组 则 与 之 
相反 ,， 即 所 谓 的 “AB-BA 设计 ”(Bodmann & Robinson, 
2004; Kim et al., 2018; Seifert & Paleczek, 2022). 

组 间 设 计 和 组 内 设计 各 有 其 适用 范围 。 与 前 
者 比 , 后 者 能 有 效 避 人 免 由 组 间 个 体 差异 带 来 的 无 
关 变 量 干扰 ,但 也 容易 受到 疲劳 效应 和 练习 效应 
的 影响 , 因此 适用 于 样本 量 和 题 量 都 较 少 的 情况 ， 
更 适用 于 练习 效应 较 小 的 人 格 测验 。 而 在 组 间 设 
计 中 , 虽然 组 间 个 体 差 异 难 以 避免 、 容 易 引 入 无 
关 变 量 , 但 是 由 于 每 名 被 试 只 接受 一 种 测验 形式 ， 
实施 起 来 更 方便 、 快 捷 ， 因 而 适用 于 样本 量 和 题 
量 都 较 多 的 情境 ,更 适用 于 能 力 测验 。 

为 改进 这 两 种 设计 的 不 足 ， 研究 者 将 它们 结 
合 形 成 平衡 不 完全 区 组 (Balanced Incomplete 
Block, BIB; Brunfaut et al., 2018) 设 计 ， 如 表 2 所 
Io Œ BIB 设计 中 , 原 测验 被 分 成 多 个 平行 题 本 ， 
相应 地 被 试 也 被 随机 分 成 多 个 组 ,， 这 多 个 被 试 组 
理论 上 可 被 看 作 是 相互 平行 的 。 表 2 中 的 “Test 1” 
和 “Test 2 代表 被 试 的 作答 顺序 。 每 组 被 试 作答 两 


7 道 题 DER 
N/2 
5 PBT 
A 
N/2 
个 一 CBT 
人 


个 题 本 ， 并 在 题 本 序号 和 作答 顺序 上 进行 平衡 ， 
从 而 减轻 被 试 的 疲劳 效应 。 由 于 题 本 A 和 了 B 理论 
上 上 平行， 比较 每 组 中 两 个 题 本 间 的 作答 就 可 以 佑 
计 TME。 通过 设计 组 1 和 组 4 以 及 组 2 和 组 3 可 
以 控制 顺序 效应 、 疲 劳 效应 和 学 习 效应 。BIB 设 
计 结 合 两 种 设计 的 优点 ， 因 而 在 样本 量 大 、 题 目 
较 多 的 测评 项 目 ( 如 PISA) 中 已 经 得 到 较为 成 熟 的 
运用 (OECD, 2014)。 
通过 实验 设计 ， 可 以 有 效 控制 组 间 被 试 特征 
的 影响 。 但 是 即使 控制 组 间 差 异 , BIB 设计 依旧 无 
法 完全 避免 组 内 个 体 差异 (如 年 龄 、 计 算 机 的 使 用 
和 作答 动机 ) 的 影响 ,此 时 可 以 在 测验 过 程 中 估计 
由 个 体 特 征 造 成 的 TME。 接 下 来 介绍 TME 的 检 
测 方法 。 
3.2 TME 的 检测 方法 

对 TME 进行 检测 就 是 对 被 试 在 PBT 和 CBT 
上 的 作答 表现 进行 比较 ， 作 答 表 现 的 比较 可 以 分 
为 两 个 层面 : 观测 变量 层面 和 潜 变 量 层 面 。 在 观 
测 变量 层面 ， 一 般 采 用 方差 分 析 (Analysis of 
Variance, ANOVA) 法 进行 比较 ,在 潜 变 量 层面 , 一 
般 通 过 检验 测量 不 变性 或 参数 不 变性 来 检测 
TME。 在 结构 方程 模型 框架 下 , 测量 不 变性 是 指 
在 测量 被 试 的 目标 特质 时 ， 观 测 变 量 和 潜在 特质 
间 以 及 潜在 特质 之 间 的 关系 在 待 比较 的 各 组 之 间 
或 在 不 同情 境 下 等 同 ( 白 新 文 ， RBC, 2004); 而 
在 项 目 反 应 理论 (Item Response Theory, IRT) 框 架 
下 ,参数 不 变性 体现 在 题目 参数 和 能 力 参数 的 不 
变性 上 ( 聂 旭 刚 等 , 2018)。 目 前 , 潜 变 量 层面 的 
TME 检测 方法 主要 包括 多 组 验证 性 因子 分 析 
(Multigroup Confirmatory Factor Analysis, MCFA) 
法 、 题 目 功能 差异 (Differential Item Functioning, 
DIF) 法 和 模式 效应 模型 (Mode Effect Model, MEM) 
法 。 下 面 对 这 4 种 方法 进行 述评 。 

Be DÄ 


图 1 TME 组 间 设 计 ( 左 ) 和 组 内 设计 ( 右 ) 示 意图 
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R2 TME 研究 中 的 BIB 设计 


PBT CBT 
组 别 
题 本 A 题 本 B 题 本 A 题 本 B 
组 1 Test 1 Test 2 
组 2 Test 1 Test 2 
组 3 Test 2 Test 1 
组 4 Test 2 Test 1 


3.2.1 ANOVA 3& 

ANOVA 法 首先 计算 两 种 测验 形式 下 的 作答 
指标 (包括 测验 层面 的 总 分 以 及 题目 层面 的 平均 
分 、 正 确 率 和 空缺 率 等 )， 然 后 根据 实验 设计 是 组 
内 或 组 间 设 计 ， 采 用 被 试 内 或 被 试 间 的 ANOVA 
对 这 些 作答 指标 进行 比较 。 如 果 这 些 指标 间 存 在 
显著 差异 ， 则 说 明 存在 TME 并 且 TME 会 对 测验 
结果 产生 影响 (Bodmann & Robinson, 2004; Goldberg 
et al., 2003; Khoshsima et al., 2017)。ANOVA 法 可 
通过 SPSS 或 R 中 的 TAM 包 (Robitzsch et al., 2022) 
实现 。 

3.2.2 MCFA 法 

MCFA 法 采用 多 组 比较 的 思想 ,对 两 种 测验 
形式 下 的 结果 进行 测量 不 变性 检验 (Kim & Huynh, 
2008)。 测 量 不 变性 检验 是 通过 比较 一 系列 从 套 模 
型 来 实现 ， 具 体 表 现在 依次 对 以 下 不 变性 进行 检 
Wy: (1) 结 构 不 变性 (configural invariance) 检 验 。 即 
检验 不 同 组 之 间 的 因子 结构 ( 即 观测 变量 和 洪 变 
量 间 的 关系 ) 是 否 相 同 ; (2) 弱 不 变性 (weak 
invariance) 检 验 。 若 结构 不 变性 得 到 满足 ， 则 进 一 
步 检验 不 同 组 之 间 的 因子 载荷 是 否 相 等 ; (3) 强 不 
变性 (strong invariance) 检 验 。 若 弱 不 变性 得 到 满足 ， 
则 进一步 检验 不 同 组 之 间 的 截 距 ( 潜 变 量 预测 观 
测 变量 时 的 截 距 ) 是 否 相 同 ; (4) 严 格 不 变性 (strict 
invariance) 检 验 。 若 强 不 变性 得 到 满足 ， 则 检验 不 
同 组 之 间 的 残 差 方差 是 否 相 同 。 这 4 种 检验 对 应 
的 测量 不 变性 水 平 具有 层级 艇 套 关系 ， 只 有 低 一 
级 的 不 变性 得 到 证 实 后 ， 进 行 高 一 级 的 不 变性 检 
验 才 有 意义 ( 获 华 俭 等 ,2008)。 如 果 测 验 在 某 一 
级 水 平 的 测量 不 变性 上 出 现 违反 ,， 则 说 明 该 测验 
在 对 应 水 平 上 存在 TME, 通过 这 种 方式 可 以 对 测 
验 层面 的 TME 进行 检验 。 

为 进一步 寻找 违反 测量 不 变性 的 成 因 ， 可 以 
根据 输出 结果 确定 当前 测量 不 变性 水 平 下 对 模型 
拟 合 违反 较 大 的 题目 。 在 放松 该 题目 上 的 检验 限 


制 后 ， 若 模型 拟 合 显著 变 好 ， 则 说 明 该 题目 的 存 
在 会 对 测量 不 变性 产生 影响 ,可 认为 存在 TME, 
这 样 依次 对 所 有 题目 进行 检测 ， 即 可 找 出 所 有 有 具 
有 TME 的 题目 。 此 时 ,测验 满足 部 分 (partiaD) 弱 不 
变性 、 部 分 强 不 变性 或 部 分 严格 不 变性 。 

已 有 研究 几乎 都 得 到 结构 不 变性 的 结果 ， 这 
可 能 是 因为 一 个 用 于 施 测 的 成 熟 测验 往往 具有 和 较 
好 的 信 效 度 ， 所 以 在 测验 形式 发 生变 化 后 因子 结 
构 并 没有 发 生变 化 。 大 多 数 测验 具有 完全 或 部 分 
弱 不 变性 ,还 有 一 些 测 验 具 有 完全 或 部 分 强 不 变 
性 , 但 是 极 少 有 测验 能 够 达到 严格 不 变性 (比如 ， 
Hox et al., 2015)。 一 般 来 说 ， 只 要 达到 弱 不 变性 或 
部 分 强 不 变性 ， 就 说 明 不 同 测验 形式 下 的 结果 
E o MCFEA 法 可 通过 R 中 的 lavaan 包 (Rosseel, 2012) 
实现 。 
3.2.3 DIF 法 

TME 和 DIF 都 反映 “由 于 某 种 因素 的 影响 ， 
导致 能 力 相 同 的 被 试 在 同一 题目 上 具有 不 同 的 正 
确 作答 概率 ”， 在 DIF 中 这 种 因素 是 指 被 试 来 自 不 
同 群体 ， 而 在 TME 中 这 种 因素 是 指 不 同 的 测验 
式 。 鉴 于 两 者 的 相似 性 , 不 少 研究 者 将 检测 DIF 
的 方法 用 于 对 TME 的 检测 (Chan et al., 2004; 
Keng et al., 2008; Puhan et al., 2007; Schwarz et al., 
2003)， 此 时 作答 CBT 的 被 试 组 可 看 作 是 目标 组 
(focus group), 作答 PBT 的 被 试 组 可 看 作 是 参照 
组 (reference group)。 

常见 的 DIF 检测 方法 主要 有 两 类 : 一 类 是 基 
于 IRT 的 方法 (即将 潜在 特质 作为 匹配 变量 ), 包 
JE IRT 似 然 比 检验 法 (QRT Likelihood Ratio, 
IRT-LR) 、 测 验 与 题目 功能 差异 法 (Differential 
Functioning of Items and Test, DFIT) 以 及 同时 题目 
有 差 检验 法 (Simultaneous Item Bias Test, SIBTEST; 
Shealy & Stout, 1993) 等 ; 另 一 类 是 非 IRT 的 方法 
( 即 直 接 将 测验 总 分 作为 匹配 变量 ), 包括 Mantel- 
Haenszel 法 、 标 准 化 法 (Standardization, STND) 和 
逻辑 斯 蒂 克 回归 法 (Logistic Regression, LRDIF) 
等 。 其 中 , Mantel-Haenszel、SIBTEST IRT-LR 和 
DFIT 法 都 已 被 用 于 检测 TME(Claudia et al., 1999; 
Puhan et al., 2007; Terluin et al., 2018)。 值 得 注意 
的 是 , 只 有 DFIT 法 可 以 同时 对 测验 和 题目 层面 
的 DIF 进行 检测 ， 其 他 方法 只 能 对 单个 题目 的 
DIF 进行 检测 (Raju et al., 1995)。 
以 SIBTEST 法 为 例 , 简要 介绍 检测 TME 的 
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步骤: (1) 将 所 有 题目 分 为 匹配 子 测验 和 待 测 子 测 
验 。 匹 配子 测验 由 不 存在 TME 的 题目 组 成 ,因此 
可 将 被 试 在 匹配 子 测验 上 的 分 数 作为 其 能 力 估 计 
值 ; (2) 对 目标 组 和 参照 组 在 匹配 子 测验 和 待 测 子 
测验 中 的 作答 结果 进行 评价 ， 并 基于 匹配 子 测验 
上 的 分 数 将 能 力 相 同 但 组 别 不同 的 被 试 进行 匹 
配 。SIBTEST 假定 在 匹配 子 测验 中 分 数 相同 的 被 
试 具有 相同 能 力 ， 所 以 组 别 不 同 的 匹配 被 试 在 待 
测 子 测验 上 的 分 数 差 异 就 是 TME 的 值 ; (3) 对 
TME 的 值 进行 显著 性 检验 ， 从 而 确定 题目 是 否 有 
TME( 茶 晓 苏 , 2014; 汤 楚 , 2016)。DIF 法 可 通过 及 
中 的 mirt 包 (Chalmers, 2012) 实 现 。 
3.2.4 MEM 法 

von Davier 等 人 (2019) 提 出 可 以 通过 在 两 参 
数 逻 辑 斯 蒂 克 模型 (Two-Parameter Logistic Model, 
2PLM) 中 加 入 量化 的 TME 参数 从 而 形成 MEM, 
然后 在 估计 题目 参数 和 能 力 参 数 的 同时 也 对 
TME 参数 进行 估计 。MEM 包含 三 个 子 模型 ， 
个 子 模型 都 有 不 同 的 模型 假设 。 

MEM 中 的 模型 1 又 被 称 为 一 般 MEM(general 
MEM). (ig TME 只 与 测验 形式 有 关 ,， 在 测验 
形式 发 生变 化 后 , 所 有 题目 的 难度 都 发 生 相 同 的 


改变 。 模 型 1 定义 TME 参数 为 8, Cn 代表 测验 形 
式 ), 公式 如 下 : 

0-B -l nô 
P(x=1]|0,&i, b; Ôn) = expla, B ued m) (1) 


1+ exp(&;0 - p; —lisn On) 

其 中 和 pp 分 别 为 第 i 题 的 斜率 参数 和 截 距 参 数 ， 
9 为 能 力 参 数 ， 了 表示 一 种 测验 形式 的 测验 的 题 
AB. lpn PETRA PA, IST, nH 
0， 代 表 原 本 的 测验 形式 (如 PBT); 4 i =i+7, BI 
<i S27, Ly 为 1 代表 新 的 测验 形式 (如 
CBT)。 此 时 , 第 i 题 和 第 7 题 是 同一 道 题 日 , 但 测 
形式 不 同 。 为 使 作答 PBT 和 CBT 的 被 试 在 同 
一 题目 上 的 正确 作答 概率 一 致 ， 模 型 假设 w = a 
All B= 8, +6, 0 “46, =0 时 ,说 明 测验 在 PBT 和 
CBT 间 不 存在 显著 差异 ， 即 测验 无 TME; 当 
5, >0 时 , WA A >, 说 明 测 验 在 PBT 上 的 难 
REKT CBT; %48, <0 时 ， 说 明 测验 在 PBT 上 的 
难度 小 于 CBT!。 


等 


ASR) PRE Lond, 部 分 ， 即 对 应 2 PLM。 在 2 PLM 中 ， 
b 与 题目 难度 b 成 正比 关系 , Hg =b xa,, 其 中 w = 
1.702 x a, (a; 是 题目 区 分 度 )。 


MEM 中 的 模型 2 假设 测验 形式 和 题目 之 间 
存在 交互 作用 ,也 即 在 测验 形式 发 生变 化 后 ， 测 
验 中 有 的 题目 可 能 会 变 得 更 难 ， 有 的 题目 会 变 得 
更 简单 。 因 此 , 模型 2 也 被 称 为 题目 特异 性 的 
MEM (item-specific MEM), 公式 如 下 : 

exp(Q0 — P; —l1sn Oni) 
1+ exp(@0 — P; -l>r Oni) 


与 模型 1 类 似 , 模型 2 中 的 前 7 道 题 对 应 
PBT、 后 7 道 题 对 应 CBT。 两 种 测验 形式 上 的 题 
目 一 一 对 应 ,因此 也 有 @&=Q, 和 p= By + Onis Oni 
为 第 i 题 的 TME 参数 。 当 Sn =0 时 , 说 明 第 i 题 
不 存在 TME; 当 ôn >0 时 , 说 明 在 第 1 题 上 PBT 
的 难度 大 于 CBT; 当 6,; <0 时 , 说 明 在 第 i 题 上 
PBT 的 难度 小 于 CBT。 

MEM 中 的 模型 3 假设 测验 形式 和 被 试 之 间 
存在 交互 作用 ， 即 在 测验 形式 转化 后 ， 对 于 有 的 
被 试 来 说 题目 变 得 更 难 ， 对 于 有 的 被 试 来 说 题目 
变 得 更 简单 。 模 型 3 也 被 称 为 个 体 特异 性 的 MEM 
(person-specific MEM)， 公 式 如 下 : 

P(x=1|0,0,,p;,ai, 9) = 
exp(@O — Pi 151) Ami) 
1+exp(a@,0 — P; -liir Ani) 6) 


其 中 ww 是 模式 斜率 , 它 具 有 题目 特异 性 ， 反映 个 
体 特 征 对 TME 的 影响 在 不 同 题目 上 不 同 。& 代表 
被 试 的 额外 能 力 ( 如 使 用 计算 机 的 能 力 )， 它 与 
TME 有 关 , 但 与 被 试 的 与 测验 目的 有 关 的 能 力 不 
相关 ， 即 cov(9,9)=0。 如 果 aw =0, 说 明 不 存在 
TME; 如 果 a 显著 不 等 于 0, 则 存在 TME。 模型 
3 与 前 两 个 模型 的 最 大 区 别 在 于 : 模型 从 单 维 IRT 
模型 变 成 多 维 IRT 模型 ， 因 此 在 模型 识别 和 参数 
估计 上 都 更 复杂 。 

MEM 法 的 以 上 三 个 子 模型 分 别 假设 三 种 不 
同 的 情况 。 在 使 用 这 种 方法 检测 TME 时 ,通常 的 
做 法 是 使 用 AIC 和 BIC 等 模型 拟 合 指标 比较 三 个 
模型 和 数据 的 拟 合 程度 ， 拟 合 越 好 说 明 数 据 更 接 
近 对 应 模型 的 假设 ， 从 而 可 以 探究 TME 是 具有 
般 性 、 题 目 特 异性 还 是 个 体 特异 性 (von Davier et al., 
2019)。 模 型 拟 合 的 同时 也 对 题目 参数 、 能 力 参 数 
和 TME 参数 进行 估计 ,进而 找 出 具有 TME 的 题 
目 并 对 其 进行 调整 。 另 外 , 模型 1 和 2 RARI 
KA, 模型 3 与 模型 1 和 2 RARER WR 
简单 模型 和 复杂 模型 的 拟 合 不 存在 显著 差异 ， 则 


P(x=1|0,0;,p,0,;) = (2) 
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选择 性 价 比 更 高 的 简单 模型 。MEM 法 可 通过 
mdltm 软件 (von Davier, 2005) 实 现 。 

MEM 法 的 三 个 子 模型 还 可 以 从 TME 来 源 的 
角度 进行 理解 ,模型 1 假设 TME 只 与 测验 形式 有 
关 , 说 明 此 时 TME 的 来 源 只 包括 测验 层面 的 差异 ， 
如 计算 机 的 硬件 设施 和 是 否 允 许 检查 并 修改 答案 
等 。 模型 2 假设 TME 具有 题目 特异 性 , 说 明 此 时 
TME 会 受到 题目 层面 差异 的 影响 ， 如 题目 类 型 和 
题目 的 呈现 方式 等 。 这 种 情况 在 能 力 测验 中 较为 
和 常见， 特别 是 包含 多 种 题 型 的 考试 中 , 不 同 题目 
受到 测验 形式 的 影响 也 不 同 ， 从 而 导致 题目 特异 
性 的 TME 。 模 型 3 假设 TME 具有 个 体 特异 性 , 说 
明 此 时 TME 会 受到 被 试 层面 差异 的 影响 ， 如 年 
龄 、 性 别 、 计 算 机 的 熟练 程度 和 作答 动机 等 。 这 
种 情况 可 能 出 现在 个 体 差 异 较 大 的 时 候 ， 即 使 通 
过 实验 设计 进行 控制 ， 也 没 法 完全 避免 个 体 差 异 
的 影响 ,从 而 导 致 个 体 特异 性 的 TME。 

为 促进 TME 检测 方法 的 应 用 , 本文 在 附录 部 
分 呈现 能 实现 ANOVA, MCFA 和 DIF 方法 的 R 
代码 示例 ， 并 以 组 间 设 计 为 例 给 出 检验 题目 层面 
TME 的 简要 流程 。 

3.2.5 TME 检测 方法 的 比较 

表 3 对 上 述 4 种 TME 检测 方法 的 优 缺 点 、 适 
用 范围 和 实现 方法 进行 了 总 结 。 

ANOVA 法 通过 “计算 PBT 和 CBT 上 的 作答 
指标 , 再 比较 两 者 间 的 差异 ”来 检测 TME， 优 点 
在 于 方便 快捷 、 计 算 简 单 ， 适 合 对 测验 层面 的 
TME 进行 初步 检测 ; 不 足 在 于 检验 力 较 低 ， 而且 
只 能 对 观测 指标 进行 比较 。MCFA 法 通过 验证 测 
量 不 变性 来 对 TME 进行 检测 ,与 ANOVA 法 类 似 ， 
MCFA 法 更 适合 对 测验 层面 的 TME 进行 检测 ， 可 
以 探究 观测 变量 与 潜在 特质 间 以 及 潜在 特质 间 的 
KA; 不 足 在 于 对 题目 层面 TME 进行 检测 的 过 程 


繁琐 、 不 易 操作 。 

DIF 法 利用 DIF 和 TME 在 概念 和 检测 方法 上 
的 共通 性 , 采用 DIF 检测 方法 对 TME 进行 检测 。 
DIF 法 的 优点 体现 在 两 方面 : 一 是 能 对 测验 中 具 
有 TME 的 题目 进行 准确 识别 ; 二 是 包含 的 方法 非 
常 多 样 ， 在 实践 中 可 以 灵活 选择 。MEM 法 通过 建 
立 包 含 TME 参数 的 IRT 模型 ,直接 对 TME 的 值 
进行 估计 。 与 前 三 种 方法 相 比 , MEM 法 具有 两 方 
面 的 优点 : 一 是 能 对 TME 的 大 小 进行 直接 估计 ; 
二 是 能 在 一 定 程度 上 探究 TME 的 来 源 ， 从 而 更 好 
地 对 TME 进行 解释 和 控制 ; 缺点 是 模型 较为 复杂 
(特别 是 模型 3)， 可 能 会 面临 模型 识别 和 参数 估计 
等 方面 的 挑战 。 


4 测验 模式 效应 的 研究 结果 


在 过 去 30 多 年 里 , 已 经 有 超过 300 项 研究 对 
PBT 和 CBT 的 测验 结果 (包括 成 就 测验 、 人 格 与 
态度 测验 和 职业 兴趣 测验 等 领域 的 结果 ) 进 行 比 
较 (Duchnicky & Kolers, 1983; Kulik et al., 1980), 
但 并 没有 得 到 一 致 的 结论 。 很 多 研究 者 发 现 ， 同 
一 测验 在 CBT 上 的 难度 要 普遍 高 于 PBT， 导致 被 
试 在 PBT 上 的 表现 显著 好 于 在 CBT 上 的 表现 ( 比 
如 , Backes & Cowan, 2019; Beatty et al., 2022; Lee 
et al., 1986; Jeong, 2012)。 然 而 也 些 研 究 得 出 
相反 的 结论 ， 即 被 试 在 CBT 上 的 表现 要 好 于 在 
PBT 上 的 表现 (比如 , Brunfaut et al., 2018; Russell 
& Plati, 2002)。 还 有 不 少 研 究 发 现 , 被 试 在 不 同 测 
验 形式 上 的 作答 结果 没有 显著 差异 (Blumenthal & 
Blumenthal, 2020; Hamhuis et al., 2020; Khoshsima 
& Toroujeni, 2017; Paleczek et al., 2021; Porion et al., 
2016; Prisacari & Danielson, 2017a, 2017b). 

出 现 这 样 的 结果 可 能 与 研究 发 表 的 年 代 有 
关 。 随 着 研究 发 表 年 代 的 递 进 ， 被 试 在 PBT 和 


表 3 四 种 TME 检测 方法 的 总 结 


优点 缺点 适用 范围 实现 方式 
ANOVA ”方便 快捷 ,适用 范围 广 检验 力 较 低 对 TME 进行 初步 检测 SPSS 或 TAM 包 
MCFA ”可 探究 潜 变 量 和 观测 变量 间 “对 题目 层面 的 TME 检测 ”人 格 和 社会 心理 领域 内 的 测验 lavaan 包 
以 及 潜 变 量 间 的 关系 过 程 较为 繁琐 
DIF 检验 力 高 ， 包 含 方 法 多 样 ， 各 种 DIF 方 法 的 自身 不 足 ”教育 测量 领域 内 的 成 就 测验 mirt 包 
可 灵活 选择 
MEM 检验 力 高 , 可 在 一 定 程度 上 模型 较为 复杂 ,可 能 出 现 mdltm 软件 


了 解 TME 的 来 源 模型 识别 等 问题 
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CBT 上 的 作答 表现 也 发 生变 化 。 在 21 世纪 之 前 ， 
计算 机 还 没有 得 到 普及 ， 相 应 地 人 们 对 计算 机 的 
使 用 不 太 熟 练 ， 因 此 会 出 现 PBT 得 分 显著 高 于 
CBT 的 结果 。 随 着 计算 机 的 逐渐 普及 ， 人 们 使 用 
计算 机 的 能 力也 得 到 提高 ， 再 加 上 对 计算 机 有 着 
较 强 的 兴趣 和 作答 动机 ， 因 此 出 现 更 多 在 CBT | 
得 分 更 高 的 情况 。 

对 于 没有 检测 出 TME 的 研究 ， 则 可 能 有 以 下 
几 点 原因 : (1) 部 分 测验 题目 (如 多 选 题 ) 的 稳定 性 
较 好 , 不 易 产 生 TME; (2) 随 着 题 型 越 来 越 多 样 化 ， 
可 能 会 出 现 “ 在 同一 测验 中 ， 部 分 题目 对 PBT 更 
有 利 ， 而 另 一 些 题目 对 CBT 更 有 利 ” 的 情况 。 如 果 
只 对 测验 层面 的 TME 进行 检测 ， 则 可 能 出 现 效应 
上 的 抵消 ; (3) 在 “测验 本 身 结构 较 好 、 实 验 设计 较 
完善 且 对 TME 来 源 控制 较 好 ”的 前 提 下 ,测验 层 
面 不 存在 较 大 的 TME。 若 研究 者 采用 检验 力 较 低 
的 ANOVA 和 MCFA 法 , 则 容易 出 现 TME 检测 不 
显著 的 情况 。 

因此 , 很 多 研究 在 对 测验 层面 的 TME 进行 检 
测 后 ,还 会 对 题目 层面 的 TME 进行 检测 (Keng et 
al., 2008; Puhan et al., 2007; OECD, 2017)。 通过 综 
合 测验 和 题目 层面 的 检测 结果 ， 可 以 为 测验 在 
PBT 和 CBT 上 的 可 比 性 提供 依据 ,也 可 以 更 细致 
地 探究 TME 的 来 源 ， 从 而 为 题目 的 修订 提出 建议 。 


5 ”讨论 与 展望 


目前 随 着 计算 机 和 网 络 的 广泛 运用 ，TME 已 
经 成 为 大 型 测验 电子 化 进程 中 不 容 忽 视 的 问题 。 
PISA, NAEP 和 TIMSS 等 大 规模 测评 项 目 都 在 经 
历 着 从 PBT 到 CBT 的 变化 。 在 进行 测验 形式 的 
转变 之 前 , 采用 严密 的 实验 设计 和 精确 的 检测 方 
法 对 测验 中 可 能 存在 的 TME 进行 检测 ， 是 保证 
PBT 和 CBT 上 作答 结果 具有 可 比 性 的 重要 途径 ， 
出 是 对 测验 公平 的 保障 。 
通过 前 面 的 梳理 ,可 以 看 到 尽管 TME 的 研究 
已 经 较为 成 熟 , 但 是 也 还 存在 一 些 问题 : 首先 ， 
TME 的 来 源 比较 复杂 ,使 得 影响 TME 的 因素 繁 
多 。 而 且 对 于 同一 因素 , 还 可 能 会 在 不 同人 群 中 
出 现 巨大 差异 。 比 如 CBT 中 的 交互 方式 , 年 轻 人 
会 适应 键盘 和 鼠标 的 输入 方式 , 而 中 老年 人 可 能 
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管 4 种 TME 检测 方法 各 有 优势 ， 有 时 也 可 以 同时 
使 用 以 达到 更 好 的 效果 , 但 是 还 没有 研究 对 它们 
的 检测 效果 进行 全 面 比 较 。 最 后 , 不 同 TME 研究 
中 的 结果 难以 进行 比较 。 如 前 所 述 ，TME 的 研究 
结果 受 TME 的 来 源 、 实 验 设计 和 检测 方法 等 多 方 
面 的 影响 ,因此 有 研究 者 使 用 元 分 析 方 法 对 TME 
研究 的 影响 因素 进行 探究 ， 然 而 结果 不 尽 相 同 
(Wang et al., 2007, 2008)。 这 可 能 是 因为 元 分 析 本 
身 存在 “苹果 与 桔子 之 争 ” 问 题 ， 即 很 多 研究 者 认 
为 方法 不 同 的 研究 不 能 进行 直接 比较 。 

E, TME 今后 的 研究 方向 包括 但 不 限于 以 
下 几 个 方面 : 
5.1 提升 MEM 方法 的 解释 性 与 适用 性 

第 三 部 分 提 到 ,可 以 从 TME 来 源 的 角度 理解 
MEM, 但 是 , MEM 只 能 在 一 定 程度 上 帮助 研究 者 
锁定 TME 的 来 源 范 围 , 无 法 对 TME 的 来 源 做 
解释 。 因 此 ， 可 以 借助 <IRT 模型 能 够 增 减 参数 ” 
的 优势 , 在 现 有 MEM 中 加 入 与 TME 来 源 相 关 的 
因素 ， 从 而 直接 在 模型 中 对 TME 进行 解释 。 比 如 ， 
模型 1 假设 TME 只 与 测验 形式 有 关 , TME 的 来 源 
可 能 是 作答 过 程 有 无 监督 等 测验 层面 的 特征 。 为 
进一步 对 这 些 因素 进行 解释 ， 可 以 建立 关于 TME 
参数 和 测验 层面 特征 的 回归 方程 ,以 探究 不 同 特 
征 的 权重 以 及 不 同 特征 对 TME 产生 的 贡献 大 小 。 
在 模型 2 和 3 中 , 也 可 以 建立 类 似 的 回归 方程 对 
TME 的 来 源 进行 解释 。 

另外 ,还 可 以 使 用 广义 模型 对 TME 进行 解 
释 。 陈 冠 宇和 陈 平 (2019) 基 于 广义 线性 混合 模型 和 
非 线性 混合 模型 的 视角 全 面 探讨 解释 性 IRT 模型 
(Explanatory IRT Model, EIRTM). EIRTM 是 一 个 
综合 性 的 解释 框架 ， 它 通过 在 IRT 模型 中 加 入 预 
测 变 量 来 对 被 试 和 题目 间 的 关系 进行 刻画 ， 进 而 
解释 相关 变量 的 有 影响。 具体 地 讲 , 他们 在 EIRTM 
的 框架 下 ， 从 固定 效应 和 随机 效应 的 角度 对 TME 
进行 解释 。 未 来 研究 也 可 以 在 EIRTM 这 一 更 加 灵 
活 、 更 加 广义 的 框架 下 对 混合 MEM 进行 进一步 
界定 。 
再 者 , 已 有 的 MEM 方法 主要 基于 IRT 模型 
( 即 2PLM)。 而 认 知 诊断 测验 (Cognitive Diagnostic 
Testing，CDT) 由 于 能 够 反馈 学 生 对 特定 知识 属性 
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会 非常 不 适应 。 这 使 得 研究 者 几乎 无 法 预测 和 控 
制 影 响 因素 ， 不 利于 对 TME 进行 深入 的 分 析 与 解 
释 。 其 次 , 缺少 对 TME 检测 方法 的 系统 比较 。 尽 


的 掌握 情况 、 能 够 剖析 心理 量 表 的 潜在 结构 (de La 
Torre & Douglas, 2004), 正 日 益 受 到 测量 研究 者 
和 实践 者 的 青睐 。 未 来 研究 可 进一步 开发 适用 于 
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CDT 的 MEM 方法 ， 比 如 借助 广义 多 策略 认 知 诊 
断 模型 (Ma & Guo, 2019) 分 析 CBT +j PBT 下 的 被 
试 作答 策略 差异 ， 以 了 解 不 同 测验 形式 下 的 认 知 
加 工 过 程 变化 。 
5.2 HR TME 研究 中 测验 形式 的 范围 
目前 大 多 数 TME 研究 都 聚焦 于 PBT 和 CBT 
之 间 的 比较 ， 然 而 TME 还 可 能 出 现在 PBT 和 其 
他 测验 形式 之 间 , 包括 手机 测验 (mobile-based 
assessment) 和 电话 或 面对面 访谈 (phone or 
face-to-face interview) 等 测验 形式 (Chan et al., 
2004; Magnus et al., 2016)。Kim 和 Walker(2021) 
还 人 研究 在 考试 中 心 参加 测验 和 使 用 远程 监考 在 家 
参加 测验 之 间 的 TME。 随 着 测验 形式 的 不 断 发展 ， 
更 多 新 型 测验 形式 不 断 涌现 ， 比 如 基于 游戏 的 测 
验 (game-based assessment)、 基 于 虚拟 现实 (virtual 
reality) 和 增强 现实 (augmented reality) 等 智能 穿戴 


答 输入 计算 机 ， 能 较 有 效 地 控制 来 自 评分 者 层面 
的 有 影响; (2) 通 过 改良 对 评分 者 的 训练 规则 来 降低 
手写 版 和 打字 版 的 评分 差异 (Powers et al., 1994)。 
另外 ， 随 着 自动 评分 技术 的 发 展 (Ramesh & 
Sanampudi, 2022 ; Zhang et al., 2020), 测验 或 将 
迎 来 全 计算 机 化 模式 , 届时 评分 者 对 TME 的 影响 
将 主要 集中 在 机 器 评分 的 算法 层面 。 
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Test mode effect: Sources, detection, and applications 


CHEN Ping, DAI Yi, HUANG Yingshi 


(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, Beijing 100875, China) 


Abstract: Test mode effect (TME) refers to the difference in test function caused by the administration of 
the same test in different test modes. The existence of TME will have an impact on test fairness, selection 
criteria and test equating, so it is of great significance to accurately detect and interpret TME. By 
systematically sorting out the source, detection (including the experimental design and detection methods) 
and research results of TME, the methodology of TME research is comprehensively demonstrated. Further 
interpretation of the TME model, expansion of the test modes in TME research, and application of TME 
research results to large-scale educational assessment programs in China, are important future development 
directions in the field of TME. 
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附录 : 


为 促进 TME 检测 方法 的 应 用 ,以 下 呈现 能 实现 ANOVA, MCFA 和 DIF 方法 的 R 代码 示例 。 由 于 
实现 MEM 方法 的 mdltm 软件 不 是 开源 软件 且 研 究 者 在 技术 报告 中 并 未 提供 详细 的 参数 佑 计 方 法 ， 因 此 
未 圳 括 在 本 例 中 。 接 下 来 以 组 间 设 计 为 例 ， 给 出 检验 题 日 层面 TME 的 简要 流程 。 


附 表 1 基于 R 软件 的 ANOVA、MCFA 和 DIF 方法 代码 示例 


检验 方法 代码 示例 


的 : 比较 每 一 题 在 PBT 和 CBT 上 的 平均 分 

# 加 载 所 需 程序 包 ------- 

library(TAM) 

# 数据 准备 ---------------- 

#1=PBT,0= CBT 

# nperson 为 被 试 量 ( 即 图 1 中 N) 

# nitem 为 题目 数 ( 即 图 1 P D 

#response_raw 包含 两 种 测验 形式 下 的 所 有 作答 ,是 一 个 [nperson, nitem] 的 矩阵 
#TMEbetween 用 于 储存 每 道 题 在 不 同 测验 形式 下 的 显著 性 结果 


ANOVA # 创建 数据 框 , 包含 测验 模式 标签 “mode” 与 相应 的 作答 数据 
response_b <- data.frame(mode = c(rep(1, nperson/2), rep(0, nperson/2)), 


response_raw) 


# 数据 分 析 -a 
# 创建 空 矩阵 用 于 结果 存储 

TMEbetween <- matrix(data = NA, nrow = nitem, ncol = 1) 

for (j in 1:nitem) { 

# 对 每 一 题 比 较 两 种 测验 模式 下 的 得 分 差异 (第 一 列 是 标签 ， 因 此 从 j+1l 开始 ) 
anova_item <- aov(response_b[, j+1] ~ mode, data = response_b) 

# 将 结果 储存 于 矩阵 相应 位 置 

TMEbetween[j, 1] <- summary(anova_item)[[1]]$ Pr(C>F)[H] 

} 
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续 表 
检验 方法 代码 示例 
的 : 检验 PBT 与 CBT 下 结果 的 测量 不 变性 
# 加 载 所 需 程序 包 ------- 
library(lavaan) 
# 模型 检验 ---------------- 
# (本 示例 限定 所 有 题目 都 属于 同一 个 潜在 特质 ) 
#1. 检验 形态 等 价 ( 即 结构 不 变性 ) 
#2. 检验 载荷 等 价 ( 即 弱 不 变性 ) 
#3. 检验 截 距 等 价 ( 即 强 不 变性 ) 
#4. 依次 放松 每 道 题目 的 载荷 限制 ， 并 将 结果 储存 于 cfa_item 
model <- 'trait =~ item] + item2 + ... + itemN' # 建立 模型 
MCFA fit] <- cfa(model, data = response_b, group="mode") # 形态 等 价 


fit2 <- cfa(model, data = response_b, group = "mode", group.equal = "loadings") # 载荷 等 价 
fit3 <- cfa(model, data = response_b, group = "mode", 

group.equal = c("loadings", "intercepts")) # 截 距 等 价 

cfa item <- matrix(data = NA, nrow = nitem, ncol = 1) # 创建 空 矩阵 
for (j in 1:nitem) { 

# 依次 对 每 一 题 放松 限制 

fit4 <- cfa(model, data = response_b, group = "mode", 

group.equal = c("loadings", "intercepts"), 

group.partial = paste("item", j, "~1", sep = "")) 

# 将 结果 储存 于 矩阵 相应 位 置 

cfa_item[j, 1] <- anova(fit3, fit4)$ Pr(>Chisq) [2] 

} 


DIF (SIBTEST) 


的 : 分 析 参 照 组 和 目标 组 的 结果 差异 

# 加 载 所 需 程序 包 ------- 

library(mirt) 

# DIF 检验 ----------------- 

# beta_statistic 用 于 储存 检验 统计 量 的 结果 , Ft 
# ”pe(0,0.05) 表示 不 存在 DIF 

# ”Be(0.05,0.1) 表示 存在 中 等 程度 DIF 

# = BRF 0.1 表示 存在 较 严 重 DIF (Puhan et al., 2007) 

# suspect 为 可 能 存在 TME 的 题目 集合 

# anchor 为 不 存在 TME 的 锚 题 集合 

天 当 不 指定 错 题 时 ， 可 令 除 待 检 题 目 外 的 所 有 题 作为 错 题 集 ) 
anchor <- c(1, 2, 3) # 设置 锚 题 为 第 1、2 和 3 题 

suspect <- c(1:nitem)[-anchor] # 除去 锚 题 ， 即 得 到 可 能 存在 DIF 的 题目 集合 
beta_statistic <- matrix(data = NA, nrow = length(suspect), ncol=1) # 创建 空 矩阵 
for (j in 1:length(suspect)) { 

# 对 每 一 题 进行 DIF 检验 

dif item <- SIBTEST(response_b[, -1], response_b$mode, 

match_set = anchor, suspect_set = suspect[j]) 

# 将 结果 储存 于 矩阵 相应 位 置 

beta_statistic[j, 1] <- dif_item$beta[1] 

} 
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